Telegram Group & Telegram Channel
📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6425
Create:
Last Update:

📋 Чек-лист перед запуском ML-задачи через `sbatch`

Ваш минимальный набор проверок, чтобы не тратить GPU впустую и не ловить баги на 3-й час обучения:

Подготовка скрипта run_job.sh:
➡️ Указано имя задачи через #SBATCH --job-name=...

➡️ Настроены логи: --output=logs/%x_%j.out, --error=logs/%x_%j.err

➡️ Выбран нужный раздел: --partition=ml (или подходящий)

➡️ Указано количество ресурсов: --cpus-per-task=..., --mem=..., --gres=gpu:1

➡️ Прописан тайм-аут: --time=HH:MM:SS — не забудьте!

Среда и окружение:
➡️ Загружается нужный модуль (module load ...) или активируется conda

➡️ Все зависимости перечислены в requirements.txt или environment.yaml

➡️ Проверен путь к train.py и конфигам — абсолютный или относительный

Код:
➡️ Прописан фиксированный random seed (в reproducibility мы верим)

➡️ Есть логирование (хотя бы print/logging/wandb/MLflow)

➡️ Код протестирован локально или через srun с малым объемом данных

Безопасность и этика:
➡️ Нет утечки чувствительных данных

➡️ Модель прошла базовую проверку на адекватность и непредвзятость

Финальное:
➡️ Скрипт запускается через: sbatch run_job.sh

➡️ Вы проверяете статус: squeue -u $USER

➡️ При ошибке используете: scancel <jobid>

Если всё отмечено — можно запускать!

🙅‍♂️ Если хотя бы одно «нет» — лучше потратить ещё 5 минут, чем 5 часов GPU-времени впустую.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6425

View MORE
Open in Telegram


Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

However, analysts are positive on the stock now. “We have seen a huge downside movement in the stock due to the central electricity regulatory commission’s (CERC) order that seems to be negative from 2014-15 onwards but we cannot take a linear negative view on the stock and further downside movement on the stock is unlikely. Currently stock is underpriced. Investors can bet on it for a longer horizon," said Vivek Gupta, director research at CapitalVia Global Research.

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA